Amazon S3オブジェクトのメタデータをAlteryx Connectにロードする
データアナリティクス事業本部プロダクト営業部の営業じゃないほう・新納(にいの)です。
データカタログ製品であるAlteryx Connectにメタデータをロードするには、ワークフローの形で提供されているメタデータローダーの実行が必要となります。
本エントリでは、Amazon S3上に配置されたデータのメタデータをAlteryx Connectにアップロードしてみた記録をシェアします。S3は好きですか?私は好きです。
前提条件
- Alteryx Connect 2020.2
- Alteryx Designer 2020.2
- メタデータローダー 2020.2
メタデータローダーをダウンロードする
ライセンスポータルにアクセスし、「Alteryx Connect」→「Alteryx Connect(バージョン)」にある「AlteryxConnectLoaders_<バージョン>.exe」をクリックしてダウンロードします。ダウンロード完了後はexeファイルを実行してインストールを完了します。インストールが成功するとAlteryx Designerのヘルプメニュー→「サンプルワークフロー」から「Alteryx Connect Metadata Loaders」を確認できます。
JavaScript Toolをインストールする
S3 Loaderの内部にJavaScript Toolが使用されているため、あらかじめインストールが必要となります。
以下Alteryx Communityのナレッジベースにアクセスし、「Download yxi file」のリンクからyxiファイルをダウンロードします。
yxiファイルを実行するとインストール確認画面が表示されます。「インストール」ボタンより処理を実行し、完了すると「開発者」タブにJavaScript toolが表示されます。
S3 Loaderを実行する
Alteryx Designerのメニューバーより、「ヘルプ」→「サンプルワークフロー」→「S3 Uploader」からS3 Loaderを起動します。
実行ボタン左側の「分析アプリとして実行」ボタンをクリックします。
Amazon S3タブ
必要項目を埋めていきます。チェックボックスの部分に関してはチェックするとAlteryx Connect上でどのように表示されるのか後述します。
項目 | 値 |
---|---|
AWS Endpoint | S3のエンドポイント(未入力の場合は自動で補完される) |
AWS Access Key | S3へのアクセスが可能なAWSアクセスキー |
AWS Secret Key | S3へのアクセスが可能なAWSシークレットキー |
AWS Buckets to load | S3バケット名(複数ある場合はコンマで区切る) |
Files to load | メタデータをロードするファイル種類(複数ある場合はコンマで区切り、全ファイルを読み込みたい場合はブランクを入力) |
Load Tags | S3オブジェクトに付与されたタグをAlteryx Connect上にロードしたい場合はチェック |
Load user defined metadata | S3オブジェクトに付与されたユーザー定義メタデータをAlteryx Connect上にロードしたい場合はチェック |
Load download link | Alteryx Connect上からS3オブジェクトをダウンロード可能にする場合はチェック |
Data profiling | Alteryx Connect上でデータプロファイリングを確認可能にする場合はチェック(チェック時は通常より実行時間がかかる点に注意) |
Alteryx Connectタブ
Alteryx Connectの接続情報を入力します。
項目 | 値 |
---|---|
URL | Alteryx ConnectのURL |
ユーザー名 | Administrator権限を持つユーザー名 |
パスワード | Administrator権限を持つユーザーのパスワード |
ここまで入力し、完了ボタンを押せばS3 Loaderが実行されます。
Alteryx Connect上での表示
ロードしたS3オブジェクトのメタデータをAlteryx Connect上で確認してみましょう。「Data Sources」→「Files」にアクセスするとAmazon S3というメニューが表示されます。
ロードしたS3バケット名を表示すると、S3オブジェクトが確認できます。
S3 Loaderでオプションでチェック可能だった項目を選択して実行すると、Alteryx Connect上ではどのように表示されるのか確認してみましょう。
Load Tagsをチェックした場合
S3オブジェクトにタグが付与されている場合、タグ情報もAlteryx Connectから確認可能となります。試しにuser=niino
というタグを付与してみました。
Alteryx Connect上で確認すると、Asset DetailsにTagの項目が表示されるようになりました。
Load user defined metadataをチェックした場合
S3オブジェクトに付与されたx-amz-meta
始まりのユーザー定義メタデータをロードします。
Alteryx Connect上からは「Extended properties」にてx-amz-meta
以降のキーと値を確認可能です。
Load download linkをチェックした場合
S3オブジェクトをAlteryx Connectからダウンロード可能になります。OPENボタンを押すと直ちにダウンロードが開始します。なお、チェックを入れずにS3 Loaderを実行した場合OPENボタンは表示されません。
Data profilingをチェックした場合
S3オブジェクトのカラム名やデータ型などのデータプロファイリングをAlteryx Connectから参照可能となります。
まとめ
データレイク用途としてよく使われるS3のメタデータローダーを使い倒すの巻でした。S3のメタデータはAlteryx Connectから「USE IN WORKFLOW」ボタンをクリックすることで、S3オブジェクトのデータを取得可能なS3 download toolが含まれたワークフローを即ダウンロード可能なところも便利です。(要アクセスキー/シークレットキー)。S3 Loaderの項目に何を埋めていいのかお悩みの方のお役に立てば幸いです。
参考資料
Alteryxの導入なら、クラスメソッドにおまかせください
日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。